DIALOG(R)File 35 1 iDerwent WPI 

(c) 2004 Thomson Derwent. All rts. reserv. 

010091789 **Image available** 
WPIAccNo: 1994-359502/199445 
XRPX Acc No: N94-281701 

Data flow processor - uses charging logic for individual and group-wise 
programming of mutually orthogonal homogeneously structured cells in 
integrated circuit chip 

Patent Assignee: VORBACH M (VORB-I); PACT INFORMATIONSTECHNOLOGEE GMBH 
(PACT-N) 
Inventor: VORBACH M; MUENCH R 
Number of Countries: 001 Number of Patents: 004 
Patent Family: 

Patent No Kind Date ApplicatNo Kind Date Week 

DE 4416881 Al 19941117 DE 4416881 A 19940513 199445 B 

DE 4447706 Al 19970515 DE 4416881 A 19940513 199725 

DE 4447706 A 19940513 
DE 4447707 Al 19970515 DE 4416881 A 19940513 199725 

DE 4447707 A 19940513 
DE 4416881 C2 19980319 DE 4416881 A 19940513 199815 

Priority Applications (No Type Date): DE 4316036 A 19930513 

Patent Details: 

Patent No KindLanPg Main IPC Filing Notes 
DE 4416881 Al 19 G06F-015/80 

DE 4447706 Al 1 G06F-009/38 Div ex application DE 4416881 

Div ex patent DE 4416881 
DE 4447707 Al G06F-009/38 Div ex application DE 4416881 

Div ex patent DE 4416881 
DE 4416881 C2 22 G06F-015/80 Div in patent DE 4447706 

Div in patent DE 4447707 

Abstract (Basic): DE 4416881 A 

An integrated circuit chip carries a nmnber of mutually-orthogonal 
homogeneously-structured cells, each with a niunber of logicaDy and 
structurally-identical conq>onents. The cells are combined in rows and 
columns, possibly also in groups, for connection to chip input/output 
connections. 

A charging logic is associated with the cells, via which they can 
be programmed individually and in groups so that optional logical 
functions and/or networks can be verified. Manipulation of the data 
flow processor chip's configuration, i.e. the modification of 
fimctional parts or macros can be performed during operation without 
stopping other functional parts or adversely affecting their 
functioning. 

USE/ADVANTAGE - For logical manipulation of data in binary form. 
High flexibility and enables parallel operation which is scalable 

over wide range. 
Dwg. 1-5/22 

Title Terms: DATA; FLOW; PROCESSOR; CHARGE; LOGIC; INDIVIDUAL; GROUP; WISE; 
PROGRAM; MUTUAL; ORTHOGONAL; HOMOGENEOUS; STRUCTURE; CELL; INTEGRATE- 
CIRCUIT; CHIP 

Derwent Class: TOl 

International Patent Class (Main): G06F-009/38; G06F-015/80 
File Segment: EPI 



Manual Codes (EPI/S-X): TOl-MOS 
? 



® BUNDESREPUBLIK @ Patentschrift 

DEUTSCHLAND ® QE 44 16 881 C 2 



<g) Aktenzeichen: P4416881.0-53 

@ Anmeldetag: 13. 5.94 

@ Offenlegungstag: 17.11.94 
@ Verdffentlichungstag 

der Patenterteilung: 19. 3.98 




G06F 15/80 

GmF 9/38 



DEUTSCHES 
PATENTAMT 



Innerhalb von 3 Monaten nach Veroffentlichung der Erteilung kann Bnspruch erhoben warden 



O 



CO 

i 

o 



@ Innere Prioritat: 


@ Teilfn: P 44 47 706.6 


P 43 16038.0 13.05.93 


P 44 47 707.4 


@ Patentinhaben 


@ Erfindar: 


Pact Informa^nstechnologie GmbH, 81545 
MQnchen, DE 


Vorbach, Martin. 76149 Kartsruher DE; Munch, 
Robert 76149 ICartsnihe, OE 


@Vertreter: 


(§) FurdfeBeurteilungderPatentfahigkeit 


in Betracht gazogene Druckschriften: 


Zahn, R., Dipl.-lng., Pat-Anw., 76229 Karlsruhe 


US 48 70302 
EP 05 39595A1 
WO 9011648 



(§) Verfahren zum Betrieb einer Datenverarbeitungseinrichtung 

@ Verfahren zum Betrieb einer Datenverarbertungseinrich- 
tung mit programmier- und konfigurierbarer Zellstruktur, 
wobei die Datenverarbeitungseinrichtung eine Zellmatrix aus 
einer Viebahl orthogonal zuainander angeordneter, homo- 
gen $trukturierter Zblten, walche fn Ihrer Funktion und 
Vemetzung durch eine Ladelogik frei programmierbar si'nd, 
enthilt, dadurch gekennzaichnat da8 

a) ein Konfigurationsprogramm, bestahend aus einer Folge 
von Ladebgik-Befehlen. die jeweila die Funktion und Vemet- 
zung der einzeinen Zelien angaben, so daS sich aus einer Tail 
folge eine spezielle Konfiguration mit 8pezieUer(en) Anwen- 
dung(en) ergibt vorhanden ist, auf das die Ladelogik (30) 
Zugriff hat (Fig. 3, Fig. 8, Hg.14, Fig. 15) und das von ihr 
ausgefOhrt wird, 

b) zunachst durch eine bestfmmto Anzahl von Ladelogik-Be- 
fehlan eine Konfiguration (Fig. 20b) mrt spezienar(en) An- 
wendung(en), mittels.der Ladelogik (30) zu Beginn als 
Startkonfiguratlon In der Zeli-Matrix (Fig. 2, Rg.3) einge- 
stellt wird, 

c) durch eine Statemachine (45) oder einen Komparator (43) 
die Beendigung der Durchfuhrung einer Anwsndung einer 
Oder mehrerer Zellen erkannt wird. 

d) durch die Erkennung eine Ruckmeidung an die Ladetogik 
(30) erfolgt. die die Programmabarbeitung des Konfigura- 

N tionsprogramma mit einer anderen Teilfolge (Rg.21b, 
^ Ftg. 22b) fortsetzt. welche nur Zellen umkonfiguriart also 
neu arstellt die die DurchfQhning ihrer Funktion fur die 
^ aktualle Anwendung boreits beendet haben oder ntcht 
00 benotlgt warden, so daB die Abarbeltung der Datenstrome 
CO der an der aktuellen Konflguratfen noch betelfigtan, parallel 
10 {Z.B. Register 41, 42) oder gepipefined (z.B. Fig. 228, 
^ Summierer 141 und Muftiptizierer 149) arfoeitenden Zeflen, 
die sich noch in dor Durchfuhrung ihrer Anwendung befin- 
dan, nicht gestSrt wird. 
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Beschreibung 

Die vorliegende Erfindung bezieht sich auf Verf ahren 
zum Betrieb einer Datenverarbeitungseinrichtung, d. h. 
einer Hardwareeinheit zur logischen und ahtfaineti- 
schen Manipulation (Verknupfung) von in binder Form 
vorliegenden Daten (Informationen). 

Nach dem Stand der Technik sind gewdhnliche Mi> 
kroprozessoren (z. R Intel 80 x 86) bereits bekannt Die- 
se sind aus fest vorg<^ebenen Einheiten ausgestaltet 
und verarbeiten Programme durch das Auskodieren 
von Bef ehlen (Microcode) und dadurch bestimmte Regi- 
stermanipulationen. 

Ebenfdls bekannt sind sogenannte PPGAs (z. B. aus 
US-Patent 4,870302) die zum Aufbau von komplexen 
logischen Strukturen verwendet werden. Auf der 
Gnmdlage dieser Bausteine lassen sich Rechenwerke 
wie Addierer, Multiplizierer, eta innerhalb des Baustei- 
nes fur die Durchfuhrung einer bestimmten Funktion 
Oder Aufgabe konfigurieren. Dmdi die direkte Imple- 
menderung einer Funktion in die entsprechenden Lo- 
gikbausteine konnen FPGAs Funktionen oftmals 
schneller ausfuhren als Mikroprozessoren. Obwohl die 
bekannten Bausteine aufgrund ihrer SRAM-Arcfaitek- 
tur bereits umkonfiguriert werden konnen, existiert kein 
Mechanismus» um d^e Umkonfiguration scfandl und dy- 
namisch w9hrend der Laufzeit durchfOhren zu kdnnen, 
insbesondere, wenn nur Teilbereiche des Bausteines mit 
einer neuen Funktion konfiguriert werden soUen, wah- 
rend andere Teile des Bausteines ihre Aufgabe fortset- 
zea Durch die fehJende Interaktion zwischen einer kon- 
figurierenden Einheit und dem FPGA an sich, scheiden 
die Bausteine als funktional voliwertiger Ersatz fur Mi- 
kroprozessoren aus. 

EHe der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, ein Verfahren zum Betrieb einer 
Datenverarbeitungseinrichtung mit progranmiierbarer 
und konfigurierbarer Zeil-Struktur — wobei eine Zelle 
als ein logisches Schaltelement ahnlich US 4^70302 
(LE) Oder eine besonders ausgestaltete Recheneinheit 
(ALU) definiert ist — bereitzustellen, das eine hohere 
Parallelitat der Verarbeitung und eine flexiblere Verar- 
beitung von Daten gewahrieistet. 

Dabei wird beschrieben, wie Bausteine, die aus einer 
"N^elzahl von zwei- oder mehrdimensionsJen Zeilstruk- 
turen aufgebaut sind, schneil und efHzient nach Abiauf 
eines Arbeitsschrittes oder Teilarbeitsschrittes, durch 
Interaktion zwischen dem Baustein imd einer konfigu- 
rierenden Einheit, dynamisch neu konfiguriert werden, 
ohne EinfluB auf noch abiauf ende Arbeitsschritte zu ha- 
ben. Die Notwendigkeit einer Umkonfiguration, bzw. 
das Ende eines Arbeitsschrittes, kann gemaB dieses Ver- 
fahrens automatisch erkannt werden. Dadurdi kann auf 
Grundlage dieses Verfalirens ein voliwertiger Ersatz fOr 
Mikroprozessoren geschaffen werdea 

Ein Vorteil der vorliegenden Erfindung liegt darin, 
daB die beschriebene Methode eine fiber einen weiten 
Raum skalierbare Parallelitat ermd^cht Hierbei wird 
erne Basis zum schnellen tmd flexiblen Aufbau von zum 
Beispiei neuronalen Strukturen geschaffen, wie sie bis 
dato lediglich nut erheblidiem Aufwand durch Software 
simuliert werden kdnnen. 

Diese Aufgabe wird durch die im Patentanspruch I 
angegebenen Merkmale beziehungsweise Verfahren- 
schritte gelost Zur Verdeutlichung der Verfahrens- 
schritte wird beispielsweise ein integrierter Schaltkreis 
(Chip) mit emer Vielzahl insbesondere orthogonal zu- 
einander angeordneter Zellen mit je einer Mehrzahl je- 
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weils logisch gleicher und strukturell identisch angeord- 
neter Zellen gezeigt, sowie dessen interne Busstruktur, 
die zur Erieichterung der Programmierung auBerst ho- 
raogen ist Grundsatzlich ist es denkbar innerhalb eines 
5 DatenfluBprozessors Zellen mit verschiedenen Zellogi- 
ken und Zellstnikturen unterzubringen, um so die Lei- 
stungsfahigkeit zu erhohen, indem zum Beispiei fur 
Speicheransteuerungen(Businterface) andere Zellen als 
fiir arithmetische Operationen (Arithmetisch/logisdie 
10 Einheiten (ALUs) existierea Insbesondere kann for neu- 
ronale Netze eine gewisse Speadalisierung von Vorteil 
sein. Den Zellen ist eine Ladelogik zugeordnet, Qber die 
die Zellen je fur sich und gegebenenfaUs gruppenweise 
in sogenannte MACROs (Menge von Zellen, welche zu- 
15 sammen eine definierte Aufgabe losen) zusammenge- 
faBt so programmierbar sind, daB einerseits beiiebige 
logische Funkdonen, andererseits aber auch die Ver- 
knupfung der Zellen untereinander in weiten Bereichen 
veriiizierbar sind. Dies wird erreicht indem jeder einzel- 
20 nen 2^lle ein gewisser Speicherplatz zur Verfugung 
steht, in dem die Konfiguradonsdaten abgelegt sind An- 
hand dieser Daten werden Multiplexer oder Transisto- 
ren in der Zelle besdialtet um die jewdlige Zellfunkdon 
zugewahrieisten(sieheFig. 12). 
25 Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kem der vorliegenden Erfindung 
darin, eine Methode fOr einen Datenflufiprozessor vor- 
zuschiagen, der zellular aufgebaut ist und dessen Zellen 
uber eine Ladelogik im arithmetisch-logischen Sinne 
30 quasi beliebig neu konfiguriert werden konnen. Dabei 
ist es von auBerster Notwendigkeit, daB die betreffen- 
den Zellen einzeb und ohne Beeinflussung der Qbrigen 
Zellen oder gar einer Stillegung des gesamten Bausteins 
umkonfiguriert werden konnen. Ein DatenfluBprozes- 
35 sor gemaB dem vorliegenden Verfahren kann so wah- 
rend eines ersten Arbeitszyklusses als Addierer und 
wahrend eines spateren Arbeitszyklusses als Muldpli- 
zierer "programmierf/genutzt werden, wobei die An- 
zahl der fDr die Addition beziehungsweise die Multipli- 
40 kation erforderlichen Zellen durdiaus unterschiediich 
sein kdnnen. Dabei bleibt die Plazierung der bereits 
geladenen und w^end des Umladeprozesses nicht tan- 
gierten MACROs erhaiten; der Ladek>gik beziehungs- 
weise dem Compiler obiiegt es, das neu zu ladende MA- 
45 CRO innertiaib der freien Zellen zu partitionieren (d. h. 
das zu ladende MACRO so zu zerlegen, daS es sich 
optimal einfiigen laBt). Die Ablaufsteuerung des Pro- 
gramms wird dabei von der Ladelogik ubemommen, 
indem sie gemaB dem momentan ausgefOhrten Pro- 
50 grammabschnitt die entsprechenden MACROs in den 
Baustein ladt, wobei der Ladevorgang von der spater 
beschriebenen Synchronisationslogik mitgesteuert 
wird, indem sie den Zeitptmkt des Umladens festlegt 
Daher entspridit em DFP gemSB dem beschriebenem 
55 Verfahren nicht der bekannten von-Neumann-Archi- 
tektur, da die Daten- und Programmspeicher getrennt 
sind Dies bedeutet jedoch gleichzeitig eine hdhere Si- 
cherheit, da fehlerhafte Programme keinen CODE, son- 
dem lediglich DATEN zerstoren kdnnen. 
60 Um dem Datenflufiprozessor eine arbeitsfihige 
Struktur zu geben, werden einige Zellen, und zwar imter 
anderem die Eingabe-ZAusgabefunkdonen (I/O) und 
Speidiermanagementfunktionen (I/O) vor dem Laden 
der Programme geladen und bleiben fur gewdhnlidi 
65 wahrend der gesamten Laxifzeit konstant 

Dies ist erforderlich um den Datenflufiprozessor an 
seine Hardwareumgebung anzupassen. Die ubrigen Zel- 
len werden zu sogenannten MACROs zusammengefafit 
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und konnen wahrend der Laufzeit aahezu beiiebig und 
ohne Beeinflussung von Nachbarzeilen oder anderen 
MACROS umkonfiguriert werden. Dazu sind die Zellen 
einzeh und direlct adressierbar. 

Um die Umstnikturienmg(das Umladen/Umkonfigu- 
rieren) der Zellen oder MACROs mit der Ladelogik zu 
synchronisieren, kann — wo notwendig, da nur Umgela- 
den werden darf, wenn die MACROs mit ihrer alten 
Tatigkeit fertig sind — eine SynchronisationsschaJtung 
als MACRO auf dem DatenfluBprozessor unterge- 
bracht werden, die die entsprechenden Signaie an die 
Ladelogik absendet Hierzu kann eventuell eine Modifl- 
kadon der gewdhnlichen MACROs von Noten sein, da 
diese dann der Synchronisations-Schaltung Zustandsin- 
formationen zur Verfugung stellen mOssen. 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewdhnlich, daB einzelne MA- 
CROs ihre Aufgabe erledigt haben, was aus prograra- 
miertechnischer Sicht zum Beispiei die Tenninierung 
einer Prozedur oder das Erreichen der Terminierungs- 20 
bedingung einer Schleife bedeuten kana DJl das Pro- 
gramm wird an einer anderen Stelle fortgesetzt und die 
die Zustandsinformation absendenden MACROs k6n- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfoige 25 
unigeladen warden. Hierzu kann erne Wertung der ein- 
zelnen Zustandsinformadonen durch eine Logik (zum 
Bdspiel einen(Priorit5t$- Arbiter) erfolgen. Eine derarti- 
ge einfache — Logik ist in Fig. 19 gezeichnet Die 
Logik besitzt sieben Eingangssignale durdh die die sie- 
ben MACROs ihre Zustandsinformation abgeben. In 
diesem Fall soil 0 fOr In Arbeif* und 1 fur "fertig" stehen. 
Die Logik besitzt drei Ausgangssignale, die an die Lade- 
logik gefuhrt werden, wobei der Zustand 000 als Ruhe- 
zustand gilt Liegt ein Signal an einem der sieben Ein- 
gange an, so findet eine Dezimal-Binar-Umsetzung 
statt, so wird zum Beispiei Sync6 als 1 10 dargesteQt, was 
der Ladelogik anzeigt, daB das MACRO, welches Sync6 
bedlent, seine Aufgabe beendet hat Liegen gleichzeitig 



mit zwei Kaskadierungsmethoden denkbar: 

a) Niir die lokalen Verbindungen zwischen den Zel- 
len werden herausgefiihrt, was im vorliegenden 
Beispiei zwei lO-Pins pro Kantenzelle und vier lO- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Prograramierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefOhrt werden, 
wodurch die Kaskadierung nicfat vollstandig homo- 
gen ist (Globale Verbindungen zwischen mehreren 
ZeUen, fur gewohnlich zwischen einer kompletten 
Zellenreihe oder -spaite — siehe Fig. 1 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 6a zeigt den moghchen Aufbau innerhalb eines 
DFPs, Fig. 7a zeigt die daraus resultierende Kaska- 
dierung von mehreren DFPs (drei gezeichnetX 
b) Die lokalen und giobalen Verbindungen werden 
herausgefOhrt. was die Anzahl der benotigten Trei- 
ber/IO-Pins und Leitungen drastisch erhoht, in un- 
serem Beispiei (Fig. 6b) auf sechs lO-Pins pro Kan- 
tenzelle und zwdlf lO-Pins pro EckzeUe. Dadurch 
ist eine vollstandige Homogenitat bei der Kaska- 
dierung gegeben (Fig. 7b). 



Da die giobalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den konnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der giobalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 
30 genutzt werden kann. Um diesen Effekt zu minimieren, 
kann nach einer gewissen Lange der giobalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signal s zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
35 Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechen. Dadurch kdnnen die Abschnhte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden. 



mehrere Zustandsinformationen am Eingang an, so gibt 40 sofem der Treiber in Tristate ist, ansonsten wird ein 



die Synchronisationsschaltung das Signal mit der hoch- 
sten Prioritat an die Ladelogik weiter; liegen zum Bei- 
spiei SyncO, Sync4 und Sync6 an, so reicht die Syncfaro- 
nistaions-Schaltung zunachst Sync6 an die Ladelogik 
weiter. Nachdem die entsprechenden MACROs umge- 
laden sind und somit Sync6 nicht mehr anliegt wird 
Sync4 weitergeleitet usw. Zur Verdeutiidiung dieses 
Prinzips kann zum Beispiei der Standard-TTL-Baustein 
74148 in Betracht gezogen werdea 

Ober die Ladelogik kann der DatenfluBprozessor je- 
weils optimal und gegeE)enenfalls dynamisch auf eine zu 
Josende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiei der groBe VorteD verbunden, daB neue Normen 
Oder dergleichen einzig und allein durch Umladen des 



Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
ber der einzelnen giobalen Leitungen auch einzehi an- 
gesteuert werden konnen, d. h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
45 geschleift Somit konnen auf einer ^obaien Verbindung 
dimchaus abschnittweise verschiedene Signaie anliegen, 
w^end die globale Nachbarverbindung tatsachlicfa 
global von ein und demselben Signal verwendet wird 
(vergleicheFig; 18X 
50 Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik kdnnen sogenannte 
Shared-Memories dngesetzt werden. So kdnnen zum 
Beispiei Progranune von einer FesQ>Iatte^ die im lO-Be- 
reich eines DatenfluBprozessors liegt zur Ladelogik 



DatenfhiBprozessors umgesetzt werden kdnnen und 55 durdigereicht werden, indem die DatenfluBprozessoren 
m'cht - wie bisher - einen Austausch mit entsprechen- die Daten von der Platte in den Shared-Memory schrei- 

ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondem eine Harvardarchitektur vorliegt Eben- 
GO so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
Ladelogik lie^ — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verkniipft werden sollen. 
65 Wdterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
spruche. 

Eine besondere Verwendung eines DatenfluBprozes- 



dem Anf all von Elektronikschrott bedingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhdhung des 
Parallelisierungsgrades, der Rechenleistung, sowie der 
NetzgrdBe in neuronalen Netzen fuhrt Besonders wich- 
tig ist hier erne klare homogene Verbindung der Zellen 
mit den Ein-/Ausgangs-Pins (lO-Rns) der DatenfluB- 
prozessoren, um mdglichst keine Einschrankungen auf 
die Programme zu haben. 

In Fig, 4 ist zum Beispiei die Kaskadierung von vier 
DFPs gezeigt Sie erscheinen der Umgebung wie ein 
groBer homogener Baustein (Fig. 5). Prinzipiell smd da- 
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sors gemaB dem beschriebenem Verfahrens ist darin zu gestellt sind (tatsachlich bedeutet eine gezeidinete Ver- 

sehen, daB er in Verbindung mit geeigneten Ein-ZAusga- bindung eine Mehrzahi von Leitungen); 

be-Enheiten einerseits und einem Speicher andererseits Fig. 5 die durch die Kaskadierung erreichte Homoge- 

die Basis fQr einen kompletten (komplexen) Rechner nitlit; 

bilden kann. Dabei kann ein GroSteil der lO-Fiinktio- 5 Fig. 6a die Struktur der E/A-Zellen» wobei die globa- 

nen als MACROs ai^ dem DatenfluBprozessor imple- lenVerbindungennichtherausgefClhrtwerden, 

mentiert warden und es brauchen momentan lediglich Fig. 6b die Struktur der E/A-Zellen, jedoch mit her- 

Spezialbausteine (Ethemet-Treiber, VRAMS. . .) extern ausgefuhrten globalen Verbindungen; 

zugefugtzu werden.BeieinerNormanderungoderVer- Fig, 7a die aus Fig. 6a resultierende Kaskadierung, 

besserung mufl dann wie bereits angedeutet nur das 10 wobei eine Eckzefle, sowie die zwei mit ihr konmiunizie- 

MACRO softwareseitig angepafit werden; ein Eingriff renden Treiberzellen der kaskadierten Bausteine (ver- 

in die Hardware ist nicht notwendig. Es bietet sich hier gieiche hierzu Fig. 4) gezeichnet smd; 

an, einen IO-(Eingabe-/Ausgabe-) Stecker festzulegen. Fig. 7b die aus Hg. 6b resultierende Kaskadienmg, 

uber welchen dann die Zusatzbausteine angesciilossen wobei eine Eckzelle, sowie die zwei mit ilu* konmiunizie* 

werden kdnnen. 15 renden Treiberzellen der kaskadierten Bausteine (ver- 

Fig. 16 zeigt den stark vereinfachten Aufbau eines gieiche hierzu Fig. 4) gezeichnet sind; 
heute ubiichen Rechners. Durch den Einsatz eines DFP- Fig. 8 einen bei spiel haften Aufbau einer Zelle mit 
Bausteins kdnnen erhebHche TeUe eingespart werden Multiplexemzur AuswahlderjeweiligenlogischenBau- 
OFig. 17X wobei die entsprechenden herkSmmlichen steine; 

Baugnippen (CPU, Speicherverwaltung, SCSI-, Tasta- 20 Fig.9einSchaltsymbolfQreinen8-Bit-Addierer; 

tur- und Videointerface, sowie der parallelen und seriel- Fig. 10 ein Schaltsymbol fur einen aus acht 1-Bit-Ad- 

len SchnittsteDen) ais MACROs in die kaskadierten dierembestehenden8-Bit-AddierernachFig.9; 

DFPs abgelegt werden. Nur die durch emen DFP nicht Fig. 11 eine logische Struktur eines 1-Bit- Addierers 

nachbildbaren Telle wie Speicher und Leitungstreiber entsprechendFig.lO; 

mit nidit TTL-Pegehi oder fQr hohe Lasten mussen ex- 25 Fig. 12 eine Zellenstruktur des 1 -Bit- Addierers ent- 

tem zugeschaltet werden. Durch die Verwendung des sprechend Fig. 1 1 ; 

DFPs ist eine gunstige Produktion gegeben, da ein und Fig. 13 einen der Zellenstruktur nach Fig. 9 entspre- 

derselbe Baustein sehr hau^g verwendet wird, das Lay- chend aufgebauten 8-Bit-Addierer; 

out der Platine ist durch die homogene Vemetzung ent- Fig. 14 ein erstes Ausf uhrungsbeispiel einer Mehrzahi 

sprechend einfach. Zudem wird der Aufbau des Rech- 30 miteinander zu einem Rechenwerk gekoppelter inte- 

ners durch die Ladelogik besdmmt, die hier fur gewohn- grierter Schaltkreise (DatenfluBprozessor) nach Fig. 3; 

lich nur zu Beginn der Verarbeitung (nach einem Reset) Fig. 15 ein zweites AusfQhrungsbeispiel einer Mehr- 

das DFP-Array l&dt, wodurch eine giinstige Fehlerkor- zahl miteinander zu einem Rechenwerk gekoppelter in- 

rektur- und ErweiterungsmdgUchkeit gegeben ist Em tegrierter Schaltkreise (DatenfhiBprozessor) nach 

derartiger Rechner kann insbesondere mehrere ver- 35 Fig. 3; 

schiedene Rechnerstrukturen simulieren, indem einfach Fig. 16 den stark sdiematisierten Aufbau eines her- 
der Aufbau des zu simuiierenden Rechners in das DFP- kdmmlichen Rechners; 

Array geladen wird Zu bemerken ist, dafi hierbei der Fig. 17 den mdglichen Aufbau de^elben Rechners 

DFP nicht in seiner Funktion als DFP arbeitet sondem mit Hilfe eines Arrays aus kaskadierten DFPs; 

lediglich ein hochkomplexes und frei programmierbares 40 Fig. 18 einen Ausschnitt mit eingezeichneten (Lei- 

Zellarray zur Verfugung stellt, sich hierbei jedoch von tungs-)Treibem eines DFPs. 

herkonmilichen Bausteinen in seiner besonderen guten Fig. 19 eine zum Beispiel mit einem Standard- r I L- 

Kaskadierbarkeit unterscheidet Baustem 741 48 ausgefuhrte Synchronisationslogik; 

Ein weiteres Einsatzgebiet eines solchen Bausteins ist Fig. 20a, b, c ein Ausffihnmgsbeispiel eines MACRO 

der Aufbau groBer neuronaler Netze. Sein besonderer 45 zur Addition zweier Zahlenreihen; 

Vorzugiiegt hierbei in seiner hohenGatterdichte, seiner Fig. 21a eine Muldplikadonsschaltung (vergleiche 

ausgezeichneten Kaskadierbariceit, sowie seiner Homo- Fig. 20); 

genitat. Ein Lemvorgang, der eine Andenmg einzehier Fig. 21b die interne Struktur des DFPs nach dem La- 

axiomatischer Verbindungen beziehungsweise einzel- den (vergleiche Fig. 20b); 

ner Zellfunkdonen beinhaitet ist auf iiblichen Baustei- 50 Fig* 21c die Arbeitsweise des DFPs im Speicher, so- 
nen ebenso scfalecfat durchfuhrbar, wie der Aufbau gro- wie ^e Zust^de der Zahler 47,49; 
Ber homogener und gleichzeitig flexibler Zellstrukturen. . Fig. 22a, b, c eine Kaskadensdialtung» wobei der Ad- 
Die dynamische Umkonfigurierbarkeit ermaglicht erst- dierer aus Fig. 20 und der Muldplizierer aus Fig. 21 zur 
malig die opdmale Simulation von Lemvorgangea Steigerung der Rechenleistung hintereinander gesdial- 

Die voiiiegende Erfodung wird un folgenden anhand 55 tetsind; 

der weiteren Figuren naher erlautert Insgesamt zeigen In Fig. 9 ist ein Schaltsymbol eines 8-Bit- Addierers dar- 

Fig. 1 ein aus vier Zellen bestehendes unprogram- gestellt Das Schaltsymbol besteht aus einem quadrati- 

miertes SUBMACRO X (analog einem 1-Bit-Addierer schen Baustein 1 mit acht Eingangen A 0.. J fflr em 

gemaB Fig. 12 beziehungsweise Fig. 13) mit den erfor- erstes Datenwort A und acht Eingangen B 0. . 7 fur ein 

derlichen LeitungsansdilQssen; eo zweites (zu addierendes) Datenwort B. Die jeweils acht 

Fig. 2 einen Teilausschnitt eines integrierten Schalt- Eingange Ai, Bi (i = 0. . .7) werden erganzt durch einen 

kreises (Chip) mit einer Vielzahl von Zellen und emem weiteren Eingang Oein uber den dem Baustem 1 gege- 

separierten SUBMACRO X gemafi Fig. 1 ; benenfalls ein Obertrag zugeleitet wird Der Baustein 1 

Fig. 3 einen integrierten Schaltkreis (Chip) mit einer hat funkuons- und bestimmungsgemaB acht AusgSnge S 

Qrthogonalstruktur einer quasi beliebigen Vielzahl von es . J fur binaren Sununanden und einen weiteren Aus- 

Zellen und einer extern zugeordneten Ladelog^ gang Oaus fOr den gegebenenfalls bestehenden Ober- 

Fig. 4 die Kaskadierung von vier DFPs, wobei die trag. 

Verbmdung zwischen den lO-Pins nur schematisch dar- Das in Fig. 9 dargestellte Sdialtsymbol ist in Fig. 10 
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als Anordnung sogenannter SUBMACROS dargesteUt risch separiert, das letztlich als aus vier einem 1-Bit-Ad- 
Diesc SUBMACROS 2 bestehen je aus einem 1 -Bit- Ad- dierer entsprechend programinierten Zellen (10 gemaB 
dierer 3 mit je einem Eingang fur die entsprechenden Fig/l2)b€^ehende Untereinheitzu betrachtenist 
Bits desDatenwortsund einem weiterenEingang fur ein Das in Fig. 13 separierte SUBMACRO "X" ist b 
Obertragsbit Die l-Bit-Addierer 3 weisen darubeitin- 5 Fig. 1 als Tail eines integrierten Sciialtkreises (Chip) 20 
aus einen Ausgang fur den Summanden und einen Aus- gemeinsam mil Leitungs- und Datenanschlussen darge- 
gang fur den Obertrag Oaus auf . stellt Das SUBMACRO "X* besteht aus den vier Zellen 

In Fig. 11 ist die binare Logik eines 1-Bit-Addierers 10 die entsprediend der orthogonalen Struktur je Seite 
beziehungsweise eines SUBMACROS 3 nach Fig. 10 vier Datenanschlusse (also insgesamt sechzehn Daten- 
dargestellt Analog zu Fig. 10 weistdieseSciialtlogikje 10 anschliisse je Zelle) aufweisen. Die Datenanschlusse 
einen Eingang Ai, Bi fur die konjugierten Bits der zu verbindenjeweilsbenachbarteZeflen,sodaBersichtlicfa 
verknQpfwiden Daten auf; femer ist ein Eingang Oein wird. wie beispielsweise eine Dateneinheit von Zelle zu 
fur den Obertrag vorgesehen. Diese Bits werden den Zelie durchgeschleust wird Die Ansteucrung der Zellen 
dargestellten Verbindungen beziehungsweise VerknQp- 10 erfolgt einerseits Qber sogenannte lokale Steuerun- 
fungen entsprechend m zwei ODER-GIiedem 5 und drei 15 gen. das sind lokale Leitungen, die mit alien Zellen ver- 
NAND-Gliedem 6 verknupft, so daB am Ausgangsan- bunden sind, und andererseits Qber sogenannte globale 
schluB Si und am Ausgang fur den Obertrag Oaus die Leitungen, d h. Leitimgen, die uber den gesamten inte- 
einem Volladdierer entsprechenden Verknflpfungser- griertenSchaltkreis (Chip) 20 gefuhrt sind 
gebnisse(Si,Oaus)anstehen. In Fig. 2 ist ein vergroBerter Ausschnitt eines inte- 

Auf der Grundlage iogisch und strukturell identischer 20 grierten Schaltkreises 20 dargestellt, der mit einem or- 
Zellen 10, deren einzelne logische Bausteine der auszu- thogonalen Raster von Zellen 10 belegt ist Wxe in Fig. 2 
fiihrenden Verknupfungsfunktion entsprechend ver- angedeutet kann so zum Beispiel eine Gruppe von vier 
schaltet werden, wird der 8-bit Addierer 2 in geeigneter Zellen 10 als SUBMACRO "X* ausgewahlt und dem 
Weise in die ZeUstruktur implemendert Der Vorgang l-Bit-Addierer entsprechend Fig. 12 gemaB program- 
geschieht mittels der noch zu beschreibenden Ladelo- 25 miert beziehungsweise konfiguriert werden. 
gik. GemaB der m Fig. 12 gezeigten, von der Sdialtiogik Ein voUstSndiger integrierter Schaltkreis gemaB dem 
nach Fig. 11 abgeleiteten Verknupfungslogik fur einen beschriebenen Verfahren (DFP) 20 ist beispielsweise in 
l-Bit-Addierer smd je zwei ZeUen 10.1, 10.2 bezuglich Fig. 3 dargestellt Dieser integrierte Schaltkreis 20 be- 
der logischen Bausteine insoweit gleich, daB jeweils ein steht aus einer Vielzahl im orthogonalen Raster ange- 
ODER-Glied 5 und ein NAND-Glied 6 aktiviert sind 30 ordneter Zellen 10 und weist an seinen AuBenkanten 
Eine dritte Zelle 103 wird nur als Leitungszelle (Leiter- erne entsprechende Anzahl von LeitungsanschlQssen 
bahnzelle) benutzt und die vierte Zelle ia4 ist bezuglich (Pins) auf, uber die Signale, msbesondere Ansteuersi- 
des dritten NAND-GIiedes 6 aktiv geschaltet Das aus gnale und Daten zugefuhrt und weitergeleitet werden 
den vier Zellen 10.1. . . . 10.4 bestehende SUBMACRO 2 konnen. In Fig. 3 ist wiederum das SUBMACRO "X" 
steht somitstellvertretend fur einen l-Bit-Addierer, dh. 35 gemaB Fig. 13/Fig. 1 abgegrenzt; daruberhinaus sind 
ein l-Bit-Addierer einer Datenverarbeitungseinrich- audi weitere SUBMACROS separiert, die spezifischen 
tung nach Art der vorliegenden Erfindung kann uber Funktionen und Vemetzungen entsprechend zu Unte- 
vier entsprechend programmierte(konfigurierte) Zellen reinheiten zusammengefaBt sind Dem integrierten 
10.1. ... 10.4 verifiziert werden. (Der VoUstandigkeit Schaltkreis (Chip) 20 ist eme Ladelogik 30 zugeordnet 
haiber soil angemerkt werden, daB die einzemen Zeiien 40 beziehungsweise ubergeordnet, fiber die der integrierte 
ein erheblich umfangreicheres Netzwerk von logischen Schaltkreis 20 programmiert und konfiguriert wild Die 
Bausteinen, sprich Verknupfungsgliedem, und Invertem Ladelogik 30 teflt letztlich dem integrierten Schaltkreis 
aufweist, die jeweils dem aktuellen Befehl der Ladelogik 20 mit. wie er arithmetisch-Iogisdi zu arbeiten hat 
zufolge aktiv geschaltet werden konnen. Neben den lo- Anhand von Fig. 14 beziehungsweise Fig. 15 soil im 
gischen Bausteinen ist auch ein dichtes Netz von Ver- 45 folgenden eine Rechnerstruktur beschrieben werden, 
bindungsleitungen zwischen den jeweils benachbarten die auf den im vorstehenden definierten und eriamerten 
Bausteinen und zum Aufbau von zeiien- und spaltenwei- integrierten Schaltkreis 20 aufbaut 
sen Busstrukturen zur Datenubertragung andererseits GemaB dem in Fig. 14 dargestellten ersten Ausfuh- 
vorgesehei^ so daB Uber eine entsprechende Program- rungsbeispiel ist — analog zur Anordnung der Zellen — 
mierung seitens der Ladelogik quasi beliebige logische 50 im Orthogonah-aster eine Mehrzahl von integrierten 
Verknupfungsstrukturen implementiert werde;i kon- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 

fiber lokale BUS-Leitungen 21 miteinander gekoppeit 
Der VoUstandigkeit haiber ist in Fig. 13 der Zellen- beziehungsweise vemetzt sind Die — beispielsweise 
aufbau eines 8-Bit- Addierers in seiner Gesamtheit dar- aus sechzehn integrierten Schaltkreisen 20 bestehende 
gestellt Die in Fig. 13 gezeigte Struktur entspricht inso- 55 — Rechnerstruktur weist Ein-ZAusgangsleitungen 10 
weit der nach Fig. 10, wobei die in Fig. 10 symbolisch als auf, uber die der Redmer quasi mit der Aufienwelt in 
SUBMACROS 3 dargestellten l-Bit-Addierer jeweils Verbindung steht, d h. korrespondiert Der Redmer ge- 
durdi eine vier-zellige Einheit 10.1. . . . 10.4 ersetzt sind maB Fig. 14 weist femer einen Speicher 22 auf, der dem 
Bezogen auf emen Datenfhi6i»rozessor gemaB des be- dargestellten Ausfuhrungsbeispiel entsprechend aus 
schriebenenVerfahrensbedeutetdies,dafizweiunddrei- eo zwei separierten Speichem, zusammengesetzt aus je- 
Big Zellen der zur Verfugung stehenden Gesamtheit weils RAM, ROM sowie einem Dual-Ported RAM als 
von Zellen emer zellular nut Iogisch identischem Layout shared memory zu der Ladelogik geschaltet, besteht, die 
gefertigten Schaltungspladne seitens der Ladelogik so gleichermaBen als Schreib-Lese-Speicher oder auch nur 
angesteuert und konfiguriert beziehungsweise pro- als Lese-Speicher reaiisiert sein konnen. Der soweit be- 
grammiert werden, daB diese zwdunddreiBig Zellen ein es schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 
8-Bit-AddiererbikIen. beziehungsweise ubergeordnet, mittels der die lute- 

in der Darstelhmg nach Fig. 13 ist uber eine strich- grierten Sdialtkreise (DatenfluBprozessor) 20 program- 
punkderte Umrahmung ein SUBMACRO "X* zeichne- miert und konfiguriert und vemetzt weiden. 
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Die Ladelogik 30 baut beispielsweise auf einem 1 (gemaB Fig. 9) zur Bildung der AdreBdaten, wobei 

Transputer 31, d h. einem Frozessor mit nukrocodier- diese N4ACROs 1 wie folgt geschaitet sind: Ober jewdls 

tem Befehlssatz auf, dem seinerseits ein Speicher 32 einen Eingang werden die zu vericnupfenden Adressen 

zugeordnet ist Die Verbindung zwiscfaen dem Transpu- f ur Ac Bn, Cn zugefuhrt Diese Adressen werden mit den 

ter 31 und dem DatenfluBprozessor basiert auf einer 5 Ausgangssignalen eines Zahlers 47 addiert und mit der 

SchnittsteUe 33 fur die sogenannten Ladedaten, d h. die Statemachine 45 so verknupf t, daB am Ausgang die neue 

Daten die den DatenfluBprozessor aufgabenspezifisch Zieladresse ansteht Der zlhler 47 und der Komparator 

programmieren und konfigurieren und einer Schnitt- 48 haben dabei die Aufgabe sicherzustelien, daB jeweils 

steile 34 fur den bereits genannten Rechnerspeicher 22, die richtigen Summanden verknupft werden und daB 

d h. den Shared-Memory-Speicher. jo jeweils am Ende der Zahlenreihen, d h. bei n « 9 abge- 

Die in Fig. 14 dargestellte Struktur stellt so einen brochen wird Ist die Addition voUendet, so wird in der 

kompletten Rechner dar, der uber die Ladelogik 30 je- Zustandsmaschine 45 ein STOP-Signal generiert und die 

wetls faU- beziehungsweise aufgabenspezifisch pro- Schaltung passiv geschaitet Ebenso kann das STOP-Si- 

granmiiert und konfiguriert werden kann. Der VoUstSn- gnal als Eingangssignal fur eine Synchronisations-Sdia]- 

digkeit halber sei noch angemerkt, daB — wie in Verbin- 15 tung verwenden werden, indem die Synchronisatxonslo- 

dung mit der Ladelogik 30 fiber Pfeile angedeutet — gik anhand dieses Signals erkennen kann, daB die Ge- 

mehrere dieser Rechner vemetzt, d L miteinander ge- samtfunktion "Addieren*" gemaB dem nachfolgend be- 

koppelt werden konnen. schriebenen MLl Programm beendet ist und die MA- 

Ein weiteres Ausfiihrungsbeispiel einer Redmer- CROs somit durch Neue ersetzt werden konnen (zum 
struktur ist in Fig. 15 dargestellt Im Unterschied zu 20 Beispielkonnte STOP das Signal Sync5sein). 
Fig. 14 sind dabei neben den lokalen BUS-Leitungen Der Zeitablauf in der 45 (STATEMACHINE) laBt 
zwischen den benachbarten integrierten Schaltkreisen sich dabei wie folgt darstellen, wobei noch anzumerken 
20 noch Qbergeordnete zentrale BUS-Leitungen 23 vor- ist, daB in der Zustandsmaschine 45 eine Verzogerungs- 
gesehen, um zum Beispiel spezifische Ein- beziehungs- zeit T (in Form von Taktzykien) zwischen der Adrefige- 
weise Ausgangsprobleme losen zu konnen. Auch der 25 nerierungunddemDatenerhaltimpIementiertist: 
Speicher 22 (Shared-Memory) ist uber zentrale BUS- 
Leitungen 23 mit den integrierten Schaltkreisen 20 ver- — Im Zyklus 1 wird jeweils der Zahler 47 um 1 
bimden, und zwar wie dargestellt jeweils mit Gnippen erhoht und im Komparator 48 wird gepruft, ob n > 
dieser integrierten Schaltkreise. Die in Fig. 15 darge- 9 erreicht ist; syncfaron zu diesen Operationen wer- 
stellte Rechnerstruktur weist die gleicbe Ladelogik 30 30 den die Adr^en fur A, B, C berecfanet; 
auf, wie sie anhand von Fig. 14 erl&itert wurde. — im Zyklus (T + 1) werden die Summanden A, B 

Ld Verbindung mit Fig. 20a soil eine aus erfindungsge- ausgelesen und addiert; 

TD33ea DatenfluBprozessoren aufgebaute Additions- — im Zyklus (T + 2) wird die Summe C abgespei- 

schaltung erlautert werden. Ausgegangen wird von zwei chert 
Zahlenreihen An und Bn fur samtliche n zwischen 0 und 35 

9; die Aufgabe besteht darin, die Sunune G = A| + Bi Mit anderen Worten heifit dies, daB die Operadons- 

zu bilden, wobei der Index i die Werte 0 -e: n < 9 schleife und die eigentiiche Addition gerade (T + 2) 

annehmen kann. Taktzykien erfordert Im allgemeinen sind fiir T Z . 3 

Bezugnehmend auf die Darstellung nach Fig. 20a ist Takte erforderHch, so daB verglichen mit den herkonmi- 

dic Zahlenreihe An in einem ersten Speicher PAMl 40 lichen Prozessoren (CPU), die im allgemeinen 50 bis 

abgespeichert und zwar zum Beispiel ab einer Speicher- mehrere 100 Taktzykien bedingen, eine ganz wesentli- 

adresse 1000 h; die Zahlenreihe Bq ist in einem Speicher che Rechenzeit-Reduzienmg mdglich wird. 

RAM2 an einer Speicheradresse OdfaOh abgespeichert; Die anhand von Rg. 20 aufgezeigte Konfiguration 

die Summe Cn wird in den RAMI eingeschrieben und soli im folgenden uber eine hypothetische MACRO- 

zwar unter der Adresse lOOah. 45 Sprache MLl nochmals eriautert werden: 

£s ist ein weiterer Zahler 49 zugeschaitet, der ledig- Es exisderen die Zahlenreihen An und Bn 

lich die einzeben durch die Steuerschaltung h*eig^ebe* n: 0 n < » 9 

nen Taktzykien hochz&hlt Dies soil im Weiteren zur Es sollen die Sununen Q « At + Bi mit i e N gebildet 

Verdeutlichung der Umkonfigurierbarkeit einzelner werden. 

MACROS ohne Beeinfhissung der an der Umkonfigurie- 50 const n = 9; 

rung nidit beteillgten KfACROs dienen. array A[n] in RAM[1] at 1000 h; 

Fig. 20a zeigt zunachst die eigentiiche Additions- arrayB[n]inRAM[2]atOdfaOh5 

schaltimg 40, die aus einem ersten Register 41 zur Auf- array C[n] m RAM[l] at lOOah; 

nahme der Zahlenreihe An und einem zweiten Register for i « 0 to n with (AfiJ BpJ Cp]) 

42 zur Aufnahme der Zahlenreihe Bq besteht Den bei- 55 Al; 

den Registem 41/42 ist ein 8-Bit-Addierer entsprechend C = Al = A -I- B; 

dem in Fig. 9 dargesteUten MACRO 1 nachgeschaltet next; 

Der Ausgang des MACRO 1 fiihrt Uber eine Treiber- RAM[l]istder l.Speicherblock 

schaltung 43 zurQck zum Speicher RAMI. Die Takt- RAM[2]istder2.Speidierblodc 

beziehungsweise Zeitsteuerung der Addidonsschaltung 60 at folgt die Basisadresse der Arrays 

40 erf olgt Cber eine von einem Taktgenerator T ange- for ist der Schleifenbeginn 

steuerte Zustandsmaschine (STATEMACHINE) 45, die next ist das Schleifenende 

mit den Registem 41, 42 und der Treiberschaltung 43 with ( ) folgen die Variablen, deren Adressen durch die 

verbundenist Z9hlvanableibestiQmit werden 

Die Addidonssdialtung 40 wird funktional durdi eine 65 T folgt die Verzdgerungszeit ffir eine Statemachine in 

AdreBsdiaitung 46 zur Generierung der AdreBdaten fOr Takt^klen 

die abzuspek±emden Additionsergebnisse erganzt Die Das Timing der Zustandsmaschine (Statemachine) deht 

AdreBschaltung 46 besteht ihrerseits aus drei MACROs demnach folgendermaBen aus: 
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Zyklus Aktivitat gebildet werden. 

1 Zihler erfadhen, Vergleich auf > 9 (ja Abbnich) path D; 

und const n » 9; 

Adressen fur A, B, Q berechnen array A[n] in RAM[1] at 1000 h 

T + i A, B, holen und addieren 5 array B[n] in RAM[2] at OdfaOh 

T + 2 Nach C speichem array C[n] in RAM[1] at lOOah 

Das heiBt — wie bereits erwahnt — die Schieife und die for i » 0 to n with (A[i|, B[i], CfQ) 

Addition benotigen gerade einmal T + 2 Taktzyklen. Al ; 

Fig.20b zeigt den groben Aufbau der einzelnen D = A1 = A + B; 

Fun&onen (MACROs) in einem erfindungsgemaBen lo C = Al = D x B; 

DFP. Die MACROS sind in ihrer etwaigen Lage und next; 

GrdBe eingezeichnet und mit den anhand von Fig. 20a path D definiert einen intemen nicht aus den DFP 

eriauterten entsprechenden Nuxnmcm versehen. herausgefOhrten Doppelpfad. Die Operation benotigt 

Fig. 20c zeigt den groben Aufbau der einzelnen Funk- wegen einem zusatzlichen Al elnen Taktzyklus mehr als 

tionen auf die RAM*Bldcke 1 und 2: Die Sununanden is vorher, ist insgesamt jedoch sdmeller als die beiden 

werden nacheinander in aufsteigender Reihenfoige aus obigen Programme in Folge ausgefuhrt, da zum einen 

den RAM-Bldcken 1 und 2 ab Adresse 1000 h bezie- die Schieife nur einmai durchlaufen wird, zum zweiten 

hungsweise OdfaOh gelesen und in RAM- Block 1 ab nicht umgeladen wird. 

Adresse lOOah gespeicbert Zudem sind die Zahler 47 Prinzipiell konnte das Programm auch so formuliert 

und 49 gegeben, beide zahlen wahrend des Ablaufis der 20 werden: 

Schaltung von 0 bis 9. const n = 9; 

Nach Beendigung des beschriebenen Programms soli array A[n] in RAM[1] at 1000 h 

ein neues Programm geladen werden, das die Ergebnis- array B[n] in RAM[2] at OdfaOh 

se weiterverwertet Die Umladung soil zur Laufzeit er- array C[n] in RAM[1] at lOOah 

folgen. Das Progranun ist im Folgenden gegeben: 25 for i 0 to n with (A[il B|il C(iQ 

Es exisderen die Zahlenreihen An und Bn wobei An Al; 

durch das Ergebnis Ca des vorher ausgefuhrten Pro- C « = (A+B)x B; 

granuns gegeben Ist: next; 

n: 0 <= n < =9 Sind die Gatterlaufzeiten des Addierers und des Mul- 

Es sollen die Produkte Q = Ai x Bi mit i € N gebildet 30 tiplizierers zusammen kleiner als ein Taktzyklus. kann 

werden. die Operation (A + B)xB auch in einem Taktzyklus 

const n = 9 durchgefiihrt werden, was zu einer weiteren erhebii- 

array A[n] in RAM[1] at lOOah chen Geschwiodigkeitssteigerung fOhrt: 

array B[n] in RAM[2] at OdfaOh const n = 9; 

arrayC[n]inRAM[l]atl015h 35 array A[n] in RAM[1] at 1000 h 

fori -Oton with (AplBpiqiD array B[n] in RAM[2] at OdfaOh 

Al; arrayC[n]inRAM[l]atlOOah 

C = Al AxB; fori = 0 ton with (AH, B[iiqi]) 

next Al; 

Die Beschreibung der einzelnen Befehle ist bereits 40 C ^ Ai (A-t-B)xB; 

bekannt, x symbolisiertdieMuitiplikadon. next; 

Die MACRO-Struktur ist in Fig* 2ia beschrieben, Anhand von Fig. 8 soil ein einfaches Beispiel eines 

Fig. 21b gibt in bekannter Weise die Lage und GroBe Zellenaufbaus erl&utert werden. Die Zeile 10 umfafit 

der einzeken MACROs auf dem Chip an, besonders zu zum Beispiel ein UND-GIied 51, ein ODER-GIied 52, ein 

beachten ist die GrdBe des Multiplizierers 2 in Vergleich 45 XOR-Glied SS, einen Inverter 54 sowie eine Register- 

zu Addierer 1 aus Rg.20b. In Fig. 21c ist emeut die zeUe 55. Die Zelle 10 weist darfiberhinaus eingangsseitig 

Auswirkung der Funktion auf den Speicher aufgezeigt, zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 

Z^er 47 2:§hlt emeut von 0 bis 9, dL h. er wird beim der Zelle entsprechend Fig. 1) zum Beispiel je sechzehn 

Nachladen der MACROS zurOckgesetzt EingangsanschlQssen INI, IN2 auf. Ober diesen 

Besonders zu beachten ist der Zthler 49. Angenom- 50 (16 : 1)- Multiplexer 56/57 werden jeweils die den ge- 

men, das Umladen der MACROs betragt 10 Takteyklen. nannten logischen Gliedem UND, ODER, XOR 51. . -53 

Dann lauft der Z^er 49 von 9 auf 19, da der Baustein zuzufOihrenden Daten ausgewdhlt Diese logischen Glie- 

dynamisch umgeladen wird, d. h. nur die umzuladenden der sind ausgangsseitig mit einem (3 : 1)-Multiplexer 58 

Teile werden gestoppt, der Rest arbeitet weiter. Das gekoppelt, der seinerseits mit dem Eingang des Inver- 

fOhrt nun dazu, daB der Zahler wahrend des Programm- 55 ters 54, einem Euagang der Registerzelle 55 und einem 

ablaufs von 19 auf 29 hochlauft (Hiermit soil das dyna- weiteren (3 : 16)-Multiplexer 59 gekoppelt ist Der letzt- 

mische unabhangige Umladen demonstriert werden, in genannte Multiplexer 59 ist zusatzlich mit dem Ausgang 

jedem bisher bekannten Baustein wurde der Zahler er- des Inverters 54 und einem Ausgang der Registerzelle 

neut von 0 auf 9 lauf en, da er zurOdcgesetzt wird). 55 verbunden und gibt das Ausgangssignal OUT ab. 

Bei naherer Betraditung des Problems stellt sich die eo Der Vollstandigkeit halber sei angemerkt, daB die Re- 

Frage, warum nicht beide Operationen, die Addition gisterzelle 55 mit einem Reset-Emgang R und einem 

und die Multipiikation in einem Zykhis durchgefiihrt Takteingang gekoppelt ist 

werden, also die Operation: Dem im vorstehenden eriauterten Zellenaufbau, d L 

Es existieren die Zahlenreihen An und Bn, wobei An der ZeUe 10 ist nun eine Ladelogik 30 ubergeordnet, die 

durch das Ergebnis von Cn des vorher ausgefiihrten 65 mit den Multiplexem 56, 57, 58 und 59 verbunden ist und 

Programms g^eben ist: diese den gewunschten Funktionen entsprechend an- 

n:0 « n < =s 9 steuert 

Es sollen die Produkte Q = (Ai-hBi)xBi mit i € N Sollen zum Beispiel die Signale A2 mit B5 verrundet 
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werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEP beziehungsweise "FONP entsprechend aktiv 
geschaltet; die Summanden gelaagen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 
der Multiplexer 58, 59 am Ausgang OUT abgegebea 5 
Soli zum Beispiel eine NANE>-Vericnupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 

10 

Patentanspruche 

1. Verfahren zum Betrieb einer Datenverarbei- 
tungseinriditimg mit progranmuer* und konfigu- 
rierbarer Zellstruktur, wobei die Datenverarbei- 15 
tungseinrichtung eine Zeilmatrix aus einer Viehahl 
orthogonal zueinander angeordneter, homogen 
strukturierter Zellen, welche in ihrer Funktion und 
Vemetzung durch eine Ladelogik frei program- 
mierbar sind, enthalt, dadorch gekennzeidmet, 20 
daB 

a) ein Konfigurationsprogramm, bestebend 
aus einer Foige von Ladelogik-Befehien, die 
jeweils die Funktion und Vemetzung der ein- 
zelnen Zellen angeben, so daB sich aus einer 25 
Teil folge eine spezielle Konfigturation mit spe- 
ziellerfen) Anwendung(en) ergibt, voiiianden 
ist, auf das die Ladelogik (30) Zugriff hat 
(Fig. 3, Fig. 8, Fig. 14, Fig. 15) und das von ihr 
ausgefOhrt wW, 30 

b) zunachst durch eine bestimmte Anzahl von 
Ladelogik-Befehlen eine Konfiguration 
(Fig. 20b) mit spezieller(en) Anwendimg(enX 
mittels der Ladelogik (30) zu Beginn als Start- 
konfigurationinderZeIl-Matrix(Flg.2,Kg.3) 35 
eingestellt wird, 

c) durch eine Statemachine (45) oder einen 
Komparator (48) die Beendigung der Durch- 
fuhrung einer Anwendung einer oder mehre- 
rer Zellen erkannt wird, 40 

d) durch die Brkennung eine RQckmeidung an 
die Ladelogik (30) erfolgt, die die Programm- 
abarbeitung des Konfigurationsprogramms 
mit einer anderen Teilfolge (Fig. 21b, Fig. 22b) 
fortsetzt, welche nur Zellen umkonfiguriert, al- 45 
so neu ersteilt, die die Durchfuhrung ihrer 
Funktion fur die aktuelle Anwendung bereits 
beendet haben oder nicht benddgt werden, so 
daB die Abarbeittmg der Datenstrdme der an 
der aktuellen Konfiguration noch beteiligten, 50 
paraDel (z. B. Register 41, 42) oder gepipelined 
(z. B. Fig. 22a, Summierer 141 und Muldplizie- 
rer 149) arbeitenden Zellen, die sich noch in 
der Durdifuhrung ihrer Anwendung befinden, 
nicht gestOrt wird. 55 

Z Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach Ansprudi 1, dadurch ge- 
kennzeichnet, daB durch eine Priorisienmgs-Logik 
(z. B. Fig. 19) das Umkonfigurieren der unabhSngi- 
gen parallel oder gepipelined arbeitenden Zellen, so 
einer Funktion oder Konfiguration m der optima- 
len riditigen Reihenfolge uber eine Rfickmekiung 
an die Ladelogik sicherstellt wird. 
3. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach dnem der AnsprQche 1 oder gs 

2, dadurch gekennzeichnet, daB die Operanden aus 
mehreren, beliebig vielen unabhingig adressierten 
und gesteuerten Speichem (Fig. 20a, Fig. 20c; 
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RAMI, RAM2) bezogen werden und das Ergebnis 
in einen dieser Speicher (Fig. 20a, Fig. 20c; RAMI) 
oder einen davon unabhangigen oder eine separa- 
ten Datenkanal (Elg. 14, Fig. 15; 10) ausgegeben 
wird. 

4. Verfahren zum Betrieb einer Datenverarbei- 
tungseinrichtung nach einem der Anspruche 1 bis 3, 
dadurch gekennzeichnet, daB zur besseren Ausla- 
stung der Vemetzung von Zellen, Busse mit Hilfe 
von zwischengeschalteten Schaltem (Fig. 18; Trd- 
ber) Verwendtmg findea so daB Busse in unabhdn- 
gige Abschnitte aufgeteOt werden konnen. 
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